智能论文笔记

MTU-Net: Multi-level TransUNet for Space-based Infrared Tiny Ship Detection

Tianhao Wu , Boyang Li , Yihang Luo , Yingqian Wang , Chao Xiao , Ting Liu , Jungang Yang , Wei An , Yulan Guo

分类：计算机视觉

2022-09-28

空间红外的小型船舶检测旨在将小型船只与轨道轨道捕获的图像分开。由于图像覆盖面积极大（例如，数千平方公里），这些图像中的候选目标比空中基于天线和陆基成像设备观察到的目标要小得多，二聚体，更可变。现有的简短成像基于距离的红外数据集和目标检测方法不能很好地用于空间监视任务。为了解决这些问题，我们开发了一个空间红外的小型船舶检测数据集（即Nudt-Sirst-Sea），该数据集具有48个空间基红外图像和17598像素级的小型船上注释。每个图像覆盖约10000平方公里的面积，带有10000x10000像素。考虑到这些充满挑战的场景，考虑到这些微小的船只的极端特征（例如，小，昏暗，可变的），我们在本文中提出了多层Transunet（MTU-NET）。具体而言，我们设计了视觉变压器（VIT）卷积神经网络（CNN）混合编码器来提取多层次特征。首先将局部特征图用几个卷积层提取，然后馈入多级特征提取模块（MVTM）以捕获长距离依赖性。我们进一步提出了一种拷贝性衡量量 - 帕斯特（CRRP）数据增强方法，以加速训练阶段，从而有效地减轻了目标和背景之间样本不平衡问题的问题。此外，我们设计了一个焦点损失，以实现目标定位和形状描述。 NUDT-SIRST-SEA数据集的实验结果表明，就检测概率，错误警报率和联合交集的交集而言，我们的MTU-NET优于传统和现有的基于深度学习的SIRST方法。

translated by 谷歌翻译

Introducing dynamical constraints into representation learning

Dedi Wang , Yihang Wang , Luke Evans , Pratyush Tiwary

分类：机器学习

2022-09-02

尽管表示学习对于机器学习和人工智能的兴起至关重要，但仍有一个关键问题在使学习的表示有意义。为此，典型的方法是通过先前的概率分布正规化学习的表示形式。但是，这样的先验通常不可用或临时。为了解决这个问题，我们提出了一个动态约束的表示学习框架。我们不使用预定义的概率，而是将潜在表示限制为遵循特定的动力学，这是在动态系统中的表示形式学习的更自然的约束。我们的信念源于物理学的基本观察，尽管不同的系统可以具有不同的边缘化概率分布，但它们通常遵守相同的动态，例如牛顿和施罗宾格的方程。我们验证了不同系统的框架，包括真实的荧光DNA电影数据集。我们表明，我们的算法可以唯一识别不相关的，等距和有意义的潜在表示。

translated by 谷歌翻译

HTML版本

AutoGCL: Automated Graph Contrastive Learning via Learnable View Generators

Yihang Yin , Qingzhong Wang , Siyu Huang , Haoyi Xiong , Xiang Zhang

分类：机器学习

2021-09-21

对比学习已被广泛应用于图形表示学习，其中观测发生器在产生有效的对比样本方面发挥着重要作用。大多数现有的对比学习方法采用预定义的视图生成方法，例如节点滴或边缘扰动，这通常不能适应输入数据或保持原始语义结构。为了解决这个问题，我们提出了一份名为自动化图形对比学习（AutoGCL）的小说框架。具体而言，AutoGCL采用一组由自动增强策略协调的一组学习图形视图生成器，其中每个图形视图生成器都会学习输入调节的图形的概率分布。虽然AutoGCL中的图形视图发生器在生成每个对比样本中保留原始图的最代表性结构，但自动增强学会在整个对比学习程序中介绍适当的增强差异的政策。此外，AutoGCL采用联合培训策略，以培训学习的视图发生器，图形编码器和分类器以端到端的方式，导致拓扑异质性，在产生对比样本时的语义相似性。关于半监督学习，无监督学习和转移学习的广泛实验展示了我们在图形对比学习中的最先进的自动支持者框架的优越性。此外，可视化结果进一步证实，与现有的视图生成方法相比，可学习的视图发生器可以提供更紧凑和语义有意义的对比样本。

translated by 谷歌翻译

Ensemble and Random Collaborative Representation-Based Anomaly Detector for Hyperspectral Imagery

Rong Wang , Yihang Lu , Qianrong Zhang , Feiping Nie , Zhen Wang , Xuelong Li

分类：计算机视觉

2021-01-06

近年来，Hyperspectral异常检测（有）已成为一个积极的主题，在军事和平民中发挥着重要作用。作为经典的方法，基于协作的探测器（CRD）引起了广泛的关注和深入研究。尽管CRD方法具有良好的性能，但其计算成本主要由滑动双窗策略产生的，对于广泛的应用来说太高了。此外，需要多次重复测试来确定一旦数据集更改，需要重置的双窗口的大小，并且不能以先验知识预先识别。为了缓解这一问题，我们提出了一种新的集合和随机协同代表性的探测器（ERCRD），其包括两个密切相关的阶段。首先，我们处理CRD（RCRD）上的随机子采样，以获得多个检测结果而不是滑动双窗策略，这显着降低了计算复杂性，并使其在实际应用中更加可行。其次，使用集合学习来优化RCRD的多个结果，这充当各种“专家”提供丰富的互补信息，以更好地定位不同的异常。这样的两个阶段形成有机和理论探测器，这不仅可以提高有方法的准确性和稳定性，而且还可以提高其泛化能力。四个真实高光谱数据集的实验表现出这一提出的Ercrd方法的准确性和效率与最多的最先进的方法相比。

translated by 谷歌翻译

AI Ethics on Blockchain: Topic Analysis on Twitter Data for Blockchain Security

Yihang Fu , Zesen Zhuang , Luyao Zhang

分类：人工智能 | 机器学习

2022-12-14

Blockchain has empowered computer systems to be more secure using a distributed network. However, the current blockchain design suffers from fairness issues in transaction ordering. Miners are able to reorder transactions to generate profits, the so-called miner extractable value (MEV). Existing research recognizes MEV as a severe security issue and proposes potential solutions, including prominent Flashbots. However, previous studies have mostly analyzed blockchain data, which might not capture the impacts of MEV in a much broader AI society. Thus, in this research, we applied natural language processing (NLP) methods to comprehensively analyze topics in tweets on MEV. We collected more than 20000 tweets with \#MEV and \#Flashbots hashtags and analyzed their topics. Our results show that the tweets discussed profound topics of ethical concern, including security, equity, emotional sentiments, and the desire for solutions to MEV. We also identify the co-movements of MEV activities on blockchain and social media platforms. Our study contributes to the literature at the interface of blockchain security, MEV solutions, and AI ethics.

translated by 谷歌翻译

Decorate the Newcomers: Visual Domain Prompt for Continual Test Time Adaptation

Yulu Gan , Xianzheng Ma , Yihang Lou , Yan Bai , Renrui Zhang , Nian Shi , Lin Luo

分类：计算机视觉

2022-12-08

Continual Test-Time Adaptation (CTTA) aims to adapt the source model to continually changing unlabeled target domains without access to the source data. Existing methods mainly focus on model-based adaptation in a self-training manner, such as predicting pseudo labels for new domain datasets. Since pseudo labels are noisy and unreliable, these methods suffer from catastrophic forgetting and error accumulation when dealing with dynamic data distributions. Motivated by the prompt learning in NLP, in this paper, we propose to learn an image-level visual domain prompt for target domains while having the source model parameters frozen. During testing, the changing target datasets can be adapted to the source model by reformulating the input data with the learned visual prompts. Specifically, we devise two types of prompts, i.e., domains-specific prompts and domains-agnostic prompts, to extract current domain knowledge and maintain the domain-shared knowledge in the continual adaptation. Furthermore, we design a homeostasis-based prompt adaptation strategy to suppress domain-sensitive parameters in domain-invariant prompts to learn domain-shared knowledge more effectively. This transition from the model-dependent paradigm to the model-free one enables us to bypass the catastrophic forgetting and error accumulation problems. Experiments show that our proposed method achieves significant performance gains over state-of-the-art methods on four widely-used benchmarks, including CIFAR-10C, CIFAR-100C, ImageNet-C, and VLCS datasets.

translated by 谷歌翻译

Approximate Secular Equations for the Cubic Regularization Subproblem

Yihang Gao , Man-Chung Yue , Michael K. Ng

分类：机器学习

2022-09-27

立方正则化方法（CR）是一种流行的算法，用于无限制的非凸优化。在每次迭代中，CR解决了一个立方正规化的二次问题，称为立方正则化子问题（CRS）。解决CRS的一种方法依赖于解决世俗方程，其计算瓶颈在于计算Hessian矩阵的所有特征值。在本文中，我们根据近似的世俗方程提出和分析了一种新颖的CRS求解器，该方程仅需要一些Hessian特征值，因此更有效。开发了两个近似的世俗方程（ASE）。对于这两个ASE，我们首先研究其根的存在和独特性，然后在根部和标准世俗方程之间的间隙上建立上层界限。这样的上限可以依次用于绑定从基于AS的近似CRS解决方案到真实CRS解决方案的距离，从而为我们的CRS求解器提供理论保证。我们CRS求解器的理想特征是它仅需要矩阵向量乘法，而不需要矩阵反转，这使其特别适合于无限制的非凸优化的高维应用，例如低级别恢复和深度学习。进行合成和实际数据集的数值实验是为了研究拟议的CRS求解器的实际性能。实验结果表明，所提出的求解器的表现优于两种最先进的方法。

translated by 谷歌翻译

MDM:Visual Explanations for Neural Networks via Multiple Dynamic Mask

Yitao Peng , Longzhen Yang , Yihang Liu , Lianghua He

分类：计算机视觉

2022-07-17

神经网络的活跃区域查找告诉我们，在做出决定时，神经网络的重点是哪个区域，这为我们提供了可解释性的基础，当神经网络做出分类决策时。我们提出了一种算法多动态掩码（MDM），这是一种具有解释性的通用显着图查询方法。它的建议基于一个假设：当图像输入到已经训练的神经网络时，与分类有关的激活特征将影响神经网络的分类结果，并且与分类无关的特征几乎不会影响分类结果网络。 MDM：一种基于学习的端到端算法，用于查找神经网络分类感兴趣的区域。它具有以下优点：1。它具有推理过程的解释性。 2.它是通用的，可以用于任何神经网络，并且不取决于神经网络的内部结构。 3.搜索性能更好。由于该算法基于学习生成面具并具有适应不同数据和网络的能力，因此性能比上一篇论文中提出的方法更好。对于MDM显着图搜索算法，我们在实验上比较了各种显着性图搜索方法的性能指标和MDM的Resnet和Densenet作为训练有素的神经网络。 MDM的搜索效果性能达到了最新的状态。我们将MDM应用于可解释的神经网络Protopnet和Xprotonet，从而改善了模型的解释性和原型搜索性能。我们可视化卷积神经体系结构和变压器体系结构在显着图搜索中的性能。

translated by 谷歌翻译

Memory-Based Label-Text Tuning for Few-Shot Class-Incremental Learning

Jinze Li , Yan Bai , Yihang Lou , Xiongkun Linghu , Jianzhong He , Shaoyun Xu , Tao Bai

分类：计算机视觉

2022-07-03

很少有课堂学习（FSCIL）着重于设计学习算法，这些学习算法可以不断地从几个样本中学习一系列新任务，而不会忘记旧任务。困难是，从新任务中进行一系列有限数据的培训会导致严重的过度拟合问题，并导致众所周知的灾难性遗忘问题。现有研究主要利用图像信息，例如存储以前任务的图像知识或限制分类器更新。但是，他们忽略了分析课堂标签的信息丰富且较少的嘈杂文本信息。在这项工作中，我们建议通过采用内存提示来利用标签文本信息。内存提示可以依次学习新数据，同时存储先前的知识。此外，为了优化内存提示而不破坏存储的知识，我们提出了基于刺激的训练策略。它根据图像嵌入刺激（即嵌入元素的分布）来优化内存提示。实验表明，我们提出的方法的表现优于所有先前的最新方法，从而大大减轻了灾难性的遗忘和过度拟合问题。

translated by 谷歌翻译

Switchable Representation Learning Framework with Self-compatibility

Shengsen Wu , Yan Bai , Yihang Lou , Xiongkun Linghu , Jianzhong He , Tao Bai , Ling-Yu Duan

分类：人工智能 | 机器学习

2022-06-16

现实世界的视觉搜索系统涉及具有不同计算和存储资源的多个平台上的部署。部署适合最小符合平台的统一模型会导致精度有限。预计将部署具有不同能力的模型，以适应资源约束，这要求这些模型提取的功能必须在度量空间中对齐。实现特征比对的方法称为“兼容学习”。现有的研究主要集中在一对一兼容的范式上，该范式在多个模型之间学习兼容性受到限制。我们提出了一个具有自我兼容性（SFSC）的可切换表示学习框架。 SFSC通过一个训练过程生成一系列具有不同能力的兼容子模型。子模型的优化面对梯度冲突，我们从大小和方向的角度来减轻它。我们通过不确定性估计动态调整子模型的优先级，以适当地将子模型合作。此外，预计有相互矛盾的梯度以避免相互干扰。 SFSC在评估的数据集上实现了最先进的性能。

translated by 谷歌翻译